Este trabajo fue diseñado en HTML, para poder interactuar con sus gráficas.
Para evaluar la calidad del pronostico se trabajará con la base de datos “We_03_W5.csv” donde tenemos una tasa anual de muertes de cáncer de una ciudad determinada. Para apreciar mejor el trabajo, las librerías se cargaron previamente , esto con el fin de una mejor apariencia.
Esta serie no es estacionario, observemos el siguiente gráfico
## Warning: `arrange_()` is deprecated as of dplyr 0.7.0.
## Please use `arrange()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
Haciendo una diferenciación de la series obtenemos.
Observemos también las gráficas ACF y PACF.
Ajustamos un mejor modelo, la cual es el siguiente:
\[(1-\phi B)^1Z_t=\theta_0\]
tcanc_md_1 <- Arima(tasa_cancer,order = c(0,1,0),include.drift = T,method = "CSS-ML")
tcanc_md_1
## Series: tasa_cancer
## ARIMA(0,1,0) with drift
##
## Coefficients:
## drift
## 2.0543
## s.e. 0.3312
##
## sigma^2 estimated as 7.789: log likelihood=-170.67
## AIC=345.33 AICc=345.51 BIC=349.83
En esta gráfica, observamos que el modelo tiene un sobre ajuste, pues los ocho valores pronosticados están por encima del los valores reales es decir los actuales. Miremos sus puntajes de pronósticos.
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 0.001555 | 2.473387 | 1.918094 | 0.0068277 | 1.115738 | 0.6938262 | -0.2906274 | NA |
| Test set | -13.272177 | 14.944917 | 13.272177 | -5.3457272 | 5.345727 | 4.8009043 | 0.4415682 | 4.764589 |
El porcentaje promedio de error absoluto (MAPE), Notemos que los resultados son 1.11% y 4.80% en las particiones de entrenamiento y prueba respectivamente. Un error bastante bajo en el conjunto de entrenamiento, junto con la alta tasa de error en el conjunto de prueba, es una clara indicación de sobre ajuste en el modelo.
Utilizando Holtwinters para realizar pronósticos de las observaciones de la base de datos “We_03_W5.csv” donde tenemos una tasa anual de muertes de cáncer de una ciudad determinada. Se ajusta un entonces un modelo suavizado exponencial con beta= FALSE
## Holt-Winters exponential smoothing without trend and without seasonal component.
##
## Call:
## HoltWinters(x = train, beta = F, gamma = F)
##
## Smoothing parameters:
## alpha: 0.9999461
## beta : FALSE
## gamma: FALSE
##
## Coefficients:
## [,1]
## a 251.3998
El \(\lambda\) optimo para esta serie es 0.99, El siguiente paso es pronosticar los priximos ocho observaciones.
En esta gráfica observamos que las 8 observaciones se ajustan un poco mejor que en el modelo del literal a, pues el suavizado exponencial mejora notablemente los pronósticos, aún se observa un sobre ajuste del modelo, pues vemos que los valores pronosticados están por encima de los reales, es decir actuales. Miremos los puntajes de las métricas de calidad del modelo.| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 2.435613 | 3.485422 | 2.764599 | 1.4585642 | 1.6227290 | 1.000030 | -0.2911682 | NA |
| Test set | -2.312349 | 3.170260 | 2.312349 | -0.9360619 | 0.9360619 | 0.836439 | -0.3734885 | 1.002517 |
Con un MAPE en el conjunto de entrenamiento de 1.62% y 0.93% en el conjunto de prueba, como lo comentábamos en la gráfica anterior que se observa un sobre ajuste. con esta métrica lo confirmamos, pues el MAPE de conjunto de entrenamiento es mayor que el conjunto de prueba. notemos que la mayoría de errores de pronósticos son un poco mas equilibrados.
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 0.001555 | 2.473387 | 1.918094 | 0.0068277 | 1.115738 | 0.6938262 | -0.2906274 | NA |
| Test set | -13.272177 | 14.944917 | 13.272177 | -5.3457272 | 5.345727 | 4.8009043 | 0.4415682 | 4.764589 |
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 2.435613 | 3.485422 | 2.764599 | 1.4585642 | 1.6227290 | 1.000030 | -0.2911682 | NA |
| Test set | -2.312349 | 3.170260 | 2.312349 | -0.9360619 | 0.9360619 | 0.836439 | -0.3734885 | 1.002517 |
Como lo comentabámos en los anteriores intems pues el mejor modelo es el suavizado exponecial, puesto que que el RMSE= 3.48% ,MAE=2.76% y MAPE=1.62% del conjunto de entrenamiento son aproximadamente equilibrados con el conjuto de prueba RMSE= 3.17%, MAE=2.31% y MAPE=0.93% , eso si mostrando un poco de sobre ajuste. mientras que en el modelo simple los errores del conjunto de entrenamiento son RMSE= 2.47%, MAE=1.91% y MAPE=1.11% mucho menores que los del conjunto de prueba RMSE=13.27 , MAE=13.27% y MAPE=5.34% donde se evidencia claramente el sobre ajuste.